人工智能使在各个领域的问题上实施了更准确,更有效的解决方案。在农业部门,主要需求之一是在始终了解农作物所占据或不占领的土地,以提高生产和盈利能力。传统的计算方法需要手动收集数据,并在现场亲自收集,从而导致较高的人工成本,执行时间和结果不准确。目前的工作提出了一种基于深度学习技术的新方法,该技术与常规编程相辅相成,以确定人口稠密和人口不足的作物区域的面积。我们认为作为案例研究是厄瓜多尔种植和收获甘蔗中最知名的公司之一。该策略结合了生成的对抗神经网络(GAN),该网络在天然和城市景观的航空照片数据集上进行了训练,以改善图像分辨率;卷积神经网络(CNN)在甘蔗地块的航空照片数据集上训练,以区分人口稠密的农作物区域;以及以百分比方式计算区域的标准图像处理模块。进行的实验表明,航空照片的质量有显着改善,以及人口稠密的农作物区域和未吞噬的作物区域之间的显着差异,因此,耕种和未经耕种的地区更准确。所提出的方法可以扩展到可能的害虫,杂草植被,动态作物发展以及定性和定量质量控制的检测。
translated by 谷歌翻译
This contribution demonstrates the feasibility of applying Generative Adversarial Networks (GANs) on images of EPAL pallet blocks for dataset enhancement in the context of re-identification. For many industrial applications of re-identification methods, datasets of sufficient volume would otherwise be unattainable in non-laboratory settings. Using a state-of-the-art GAN architecture, namely CycleGAN, images of pallet blocks rotated to their left-hand side were generated from images of visually centered pallet blocks, based on images of rotated pallet blocks that were recorded as part of a previously recorded and published dataset. In this process, the unique chipwood pattern of the pallet block surface structure was retained, only changing the orientation of the pallet block itself. By doing so, synthetic data for re-identification testing and training purposes was generated, in a manner that is distinct from ordinary data augmentation. In total, 1,004 new images of pallet blocks were generated. The quality of the generated images was gauged using a perspective classifier that was trained on the original images and then applied to the synthetic ones, comparing the accuracy between the two sets of images. The classification accuracy was 98% for the original images and 92% for the synthetic images. In addition, the generated images were also used in a re-identification task, in order to re-identify original images based on synthetic ones. The accuracy in this scenario was up to 88% for synthetic images, compared to 96% for original images. Through this evaluation, it is established, whether or not a generated pallet block image closely resembles its original counterpart.
translated by 谷歌翻译
While recent work on text-conditional 3D object generation has shown promising results, the state-of-the-art methods typically require multiple GPU-hours to produce a single sample. This is in stark contrast to state-of-the-art generative image models, which produce samples in a number of seconds or minutes. In this paper, we explore an alternative method for 3D object generation which produces 3D models in only 1-2 minutes on a single GPU. Our method first generates a single synthetic view using a text-to-image diffusion model, and then produces a 3D point cloud using a second diffusion model which conditions on the generated image. While our method still falls short of the state-of-the-art in terms of sample quality, it is one to two orders of magnitude faster to sample from, offering a practical trade-off for some use cases. We release our pre-trained point cloud diffusion models, as well as evaluation code and models, at https://github.com/openai/point-e.
translated by 谷歌翻译
Temporal exponential random graph models (TERGM) are powerful statistical models that can be used to infer the temporal pattern of edge formation and elimination in complex networks (e.g., social networks). TERGMs can also be used in a generative capacity to predict longitudinal time series data in these evolving graphs. However, parameter estimation within this framework fails to capture many real-world properties of social networks, including: triadic relationships, small world characteristics, and social learning theories which could be used to constrain the probabilistic estimation of dyadic covariates. Here, we propose triadic temporal exponential random graph models (TTERGM) to fill this void, which includes these hierarchical network relationships within the graph model. We represent social network learning theory as an additional probability distribution that optimizes Markov chains in the graph vector space. The new parameters are then approximated via Monte Carlo maximum likelihood estimation. We show that our TTERGM model achieves improved fidelity and more accurate predictions compared to several benchmark methods on GitHub network data.
translated by 谷歌翻译
对于在城市环境中导航的自主机器人,对于机器人而言,要保持在指定的旅行路径(即小径),并避免使用诸如草和花园床之类的区域,以确保安全和社会符合性考虑因素。本文为未知的城市环境提供了一种自主导航方法,该方法结合了语义分割和激光雷达数据的使用。所提出的方法使用分段的图像掩码创建环境的3D障碍物图,从中计算了人行道的边界。与现有方法相比,我们的方法不需要预先建造的地图,并提供了对安全区域的3D理解,从而使机器人能够计划通过人行道的任何路径。将我们的方法与仅使用LiDAR或仅使用语义分割的两种替代方案进行比较的实验表明,总体而言,我们所提出的方法在户外的成功率大于91%的成功率,并且在室内大于66%。我们的方法使机器人始终保持在安全的旅行道路上,并减少了碰撞数量。
translated by 谷歌翻译
拍打翅膀是一种生物启发的方法,可在空中机器人中产生升力和推动,从而导致安静有效的运动。该技术的优点是安全性和可操作性,以及与环境,人类和动物的物理互动。但是,为了实现大量应用,这些机器人必须栖息和土地。尽管最近在栖息场上取得了进展,但直到今天,拍打翼车辆或鸟类动物仍无法停止在分支上的飞行。在本文中,我们提出了一种新颖的方法,该方法定义了一个可以可靠和自主将鸟鸟类降落在分支上的过程。该方法描述了拍打飞行控制器的联合操作,近距离校正系统和被动爪附件。飞行由三重俯仰高空控制器和集成的车身电子设备处理,允许以3 m/s的速度栖息。近距离校正系统,具有快速的光学分支传感可补偿着陆时的位置错位。这是通过被动双向爪设计可以补充的,可以锁定和固定2 nm的扭矩,在25毫秒内掌握,并且由于集成的肌腱致动而可以重新打开。栖息的方法补充了四步实验开发过程,该过程为成功的设计优化。我们用700 g的鸟杆验证了这种方法,并演示了在分支上拍打翼机器人的第一次自主栖息飞行,结果用第二个机器人复制。这项工作为在远程任务,观察,操纵和室外飞行中应用翼机器人的应用铺平了道路。
translated by 谷歌翻译
精神分裂症是一种慢性神经精神疾病,会引起大脑内部的不同结构改变。我们假设将深度学习应用于结构性神经影像学数据集可以检测到与疾病相关的改变,并提高分类和诊断准确性。我们使用单一可用的,常规的T1加权MRI扫描测试了这一假设,我们使用标准后处理方法从中提取了3D全脑结构。然后在三个开放数据集上开发,优化和评估了一个深度学习模型,并对精神分裂症患者进行T1加权MRI扫描。我们提出的模型优于基准模型,该模型还使用3D CNN体系结构对结构MR图像进行了训练。我们的模型几乎能够完美地(ROC曲线下的区域= 0.987),将精神分裂症患者与看不见的结构MRI扫描中的健康对照区分开。区域分析将皮质下区域和心室局部作为最预测的大脑区域。皮层结构在人类的认知,情感和社会功能中起关键作用,这些区域的结构异常与精神分裂症有关。我们的发现证实了精神分裂症与皮质下大脑结构的广泛改变有关,皮层结构信息在诊断分类中提供了突出的特征。总之,这些结果进一步证明了深度学习的潜力,以改善精神分裂症的诊断,并从单个标准的T1加权脑MRI中确定其结构性神经影像学特征。
translated by 谷歌翻译
最近已被证明扩散模型产生高质量的合成图像,尤其是与指导技术配对,以促进忠诚的多样性。我们探索文本条件图像综合问题的扩散模型,并比较了两种不同的指导策略:剪辑指导和自由分类指导。我们发现后者是人类评估者的优选,用于光敏和标题相似度,并且通常产生光素质拟种样品。使用自由分类指导的35亿参数文本条件扩散模型的样本由人类评估者对来自Dall-E的人的人们青睐,即使后者使用昂贵的剪辑重新划分。此外,我们发现我们的模型可以进行微调,以执行图像修复,从而实现强大的文本驱动的图像编辑。我们在过滤的数据集中培训较小的模型,并在https://github.com/openai/glide-text2im释放代码和权重。
translated by 谷歌翻译
获得每拍信息是对心心电图(ECG)分析的关键任务,因为许多下游诊断任务取决于基于ECG的测量。然而,这些测量成本高昂地生产,特别是在整个长时间变化的记录中。但是,对于ECG描绘的现有注释数据库很小,尺寸不足,并且在它们所代表的病理条件阵列中。本文揭示了两个主要贡献。首先,基于伪造数据生成算法,基于概率论构成基本段的“池”,从原始数据库裁剪,以及将其布置成相干合成迹线的一组规则。通过对生成的轨迹施加专家知识来控制条件的产生,这增加了培训模型的输入变异性。其次,已经开发了两种新的基于分段的损耗功能,该损耗函数已经尝试通过专注于减少的样品来强制执行精确的独立结构的预测和产生更近的分段边界。最佳表演模型获得了$ f_1 $-score为99.38 \%,删除误差为2.19美元17.73 $ ms和4.45美元的$ 4.45 \ pm为所有Wave的信托(分别)(分别是持续的),如P的平均值,QRS和T波为三个不同可自由的数据库。尽管测试数据库的异质特性,但在铅配置(Holter,12-ex),采样频率(250美元,500美元和2,000美元)和代表的病理物理学(例如,不同类型的心律失常(例如,不同类型的心律失常)方面,所以获得了优异的结果。 ,窦性心律具有结构性心脏病,暗示在其泛化能力,同时优于现有最先进的划分方法。
translated by 谷歌翻译
逼真的模拟环境是每个机器人工具包中必不可少的工具,其用途从计划和控制到加强学习的培训政策不等。尽管模拟在现代机器人技术中的中心地位,但几乎没有做过将机器人模拟器的性能与现实世界数据进行比较的工作,尤其是对于涉及具有高速影响事件的动态运动的场景。处理动态接触是大多数模拟的计算瓶颈,因此围绕影响和摩擦的建模和算法选择构成了流行工具之间最大的区别。在这里,我们评估了几个模拟器重现涉及影响的现实世界轨迹的能力。使用实验数据,我们确定流行模拟器Drake,Mujoco和Bullet的系统特定接触参数,分析围绕这些参数进行建模选择的效果。对于扔到桌子上的立方体的简单示例,模拟器捕获了无弹性的影响,同时未能捕获弹性影响。对于跳跃Cassie Biped Landing的较高维度,模拟器可以很好地捕获散装运动,但是精度受到真实机器人和模拟器之间许多模型差异的限制。
translated by 谷歌翻译